Analyse des Données du Service de Vélos en Libre-Service de la Baie de San Francisco

Introduction

Ce projet vise à explorer et analyser les données du service de vélos en libre-service de la Baie de San Francisco, avec l’objectif de comprendre les facteurs influençant l’utilisation des vélos et d’identifier les tendances d’utilisation. Les données, provenant de Kaggle, incluent des informations détaillées sur les stations de vélo, la météo, le statut de la station à un moment donné, et les trajets effectués.

Ces données correspondent plus précisément aux vélos de Bay Area Bike Share qui était, jusqu’en 2015, le principal loueur de vélos en libre-service 24/7 dans la baie de San Francisco. Cette entreprise possédait 700 vélos et 70 stations dans la baie. Le jeu de données disponible sur Kaggle nous donne les dernières données de ce service, entre août 2013 et août 2015, qui étaient mises à disposition sur le site de Bay Area Bike Share.

Données

Source

Les données proviennent de Kaggle, et sont constituées de quatre fichiers CSV distincts : Station, Weather, Status, et Trip.

Description

Nous avons choisi ces datasets pour les informations diversifiées qu’ils proposent, décrites ci-dessous

  • Station : Ce dataset contient des données qui représentent une station où les utilisateurs peuvent récupérer ou restituer des vélos.
    • Contenu : 70 éléments avec 7 caractéristiques.
  • Weather : Celui-ci donne des informations sur le nombre de vélos et de quais disponibles pour une station et une minute données.
    • Contenu : 72M éléments avec 24 caractéristiques.
  • Status : Ici sont données des informations sur les déplacements individuels à vélo.
    • Contenu : 670 000 éléments avec 4 caractéristiques.
  • Trip : Ce dernier dataset nous donne des informations sur la météo un jour spécifique pour certains codes postaux
    • Contenu : 3665 éléments avec 11 caractéristiques ### Format

Chaque ensemble de données est formaté en CSV, ce qui facilite l’importation et l’analyse dans divers outils d’analyse de données.

Catégories et Sous-groupes

Les données sont divisées en quatre catégories principales correspondant aux aspects clés du service de vélos en libre-service, permettant une analyse multidimensionnelle de l’utilisation des vélos en fonction de la météo, de la disponibilité des vélos, et des préférences de trajet des utilisateurs.

Caractéristiques des Données par Fichier

Fichier Caractéristique Type de données (Quantitatif / Qualitatif) Description
Station id discrète Identifiant unique de la station
name nominale Nom de la station de vélo
latitude continue Coordonnée géographique en latitude de la station
longitude continue Coordonnée géographique en longitude de la station
dock_count discrète Nombre de places de vélos disponibles dans la station
city nominale Nom de la ville dans laquelle la station est instalée
installation_date discrète Date d’installation de la station
Status station_id discrète Identifiant unique de la station
bikes_available discrète Nombre de vélos disponibles dans la station
docks_available discrète Nombre de places vides disponibles dans la station
time discrète Heure actuelle
Trip id discrète Identifiant unique du trajet
duration discrète Durée du trajet
start_date discrète Date et heure de début du trajet
start_station_name nominale Nom de la station de départ
start_station_id discrète Identifiant unique de la station de départ
end_date discrète Date et heure de fin de trajet
end_station_name nominale Nom de la station de fin
end_station_id discrète Identifiant unique de la station d’arrivée
bike_id discrète Identifiant unique du vélo
subscription_type nominal Type d’abonnement de l’utilisateur
zip_code discrète Code postal
Weather Date discrète Date
max_temperature_f continue Température maximale en degrés Fahrenheit
mean_temperature_f continue Température moyenne en degrés Fahrenheit
min_temperature_f continue Température minimale en degrés Fahrenheit
max_dew_point_f continue Point de rosée maximal en degrés Fahrenheit
mean_dew_point_f continue Point de rosée moyen en degrés Fahrenheit
min_dew_point_f continue Point de rosée minimal en degrés Fahrenheit
max_humidity continue Humidité maximale en %
mean_humidity continue Humidité moyenne en %
min_humidity continue Humidité minimale %
max_sea_level_pressure_inches continue Pression atmosphérique maximale au niveau de la mer en pouces de mercure
mean_sea_level_pressure_inches continue Pression atmosphérique moyenne au niveau de la mer en pouces de mercure
min_sea_level_pressure_inches continue Pression atmosphérique minimale au niveau de la mer en pouces de mercure
max_visibility_miles continue Visibilité maximale en miles
mean_visibility_miles continue Visibilité moyenne en miles
min_visibility_miles continue Visibilité minimale en miles
max_wind_Speed_mph continue Vitesse maximale du vent en miles par heure
mean_wind_speed_mph continue Vitesse moyenne du vent en miles par heure
max_gust_speed_mph continue Vitesse maximale des rafales en miles par heure
precipitation_inches continue Volume des précipitations en pouces
cloud_cover continue Couverture nuageuse en oktas
events nominale Commentaires sur la météo du jour (Brouillard, pluie…)
wind_dir_degrees continue Direction du vent en degrés
zip_code dicrète Code postal

Plan d’Analyse

Nous aborderons plusieurs questions clés à travers notre analyse, qui se divisent en deux parties pour répondre à notre problématique :

Partie 1 - Quels sont les facteurs qui ont un impact sur l’utilisation des vélos ?:

  1. Quelle est la répartition des statuts des utilisateurs en fonction du trajet effectué (Subscriber/Customer) ?
    • Pour les long trajets on peut s’attendre à ce qu’il y ait un pourcentage plus élevé de “subscribers” que de “customers”.
    • Graphique : Bar Chart
    • Dataset : trip.csv
    • Features : subscription_type, start_date, end_date
  2. Est-ce que les stations sont bien dimensionnées ? (suffisamment de docks)
    • On va chercher à savoir si les capacités d’accueil des stations sont adaptées au flux entrant et sortant d’utilisateurs sur chaque station. On va comparer la capacité d’accueil d’une station par rapport au nombre de vélos qui y sont. Le problème que l’on peut rencontrer est au niveau du nombre d’éléments (environ 82 stations).
    • Graphique : Multi Set Bar Chart ou Population chart
    • Dataset : trip.csv, station.csv
    • Features: dock_count, name, station_name
  3. Est-ce que le dénivelé a un impact sur les trajets effectués par les utilisateurs ?
    • Nous nous attendons à ce qu’un trajet possédant plus de dénivelé soit moins emprunté par les utilisateurs.
    • Graphique: Flow Map + Carte topographique à intégrer
    • Dataset: trip.csv, station.csv
    • Features: lat, long, name, station_name, start_station_name, end_station_name
  4. Quelle condition météorologique a le plus d’impact sur l’utilisation des vélos ?
    • Nous souhaitons observer quelle condition météorologique impact le plus l’utilisation des vélos. Nous mettrons en comparaison les différentes informations météorologiques que nous possédons avec les données d’utilisations des vélos au cours d’une année.
    • Graphique: Bar chart
    • Dataset: weather.csv, trip.csv
    • Features: start_date, date, mean_temperature_f, mean_humidity, mean_wind_speed_mph, precipitation_inches, cloud_cover, wind_dir_degrees

Partie 2 - Quelles sont les tendances d’utilisation des vélos ?

  1. Quelle est la durée moyenne des trajets en fonction de la météo ?
    • On va chercher à observer la durée moyenne des trajets en fonction des conditions météorologiques.
    • Graphique: Bar chart (pour chaque condition météorologique ~6)
    • Dataset: weather.csv, trip.csv
    • Features: start_date, end_date, duration, date, mean_temperature_f, mean_humidity, mean_wind_speed_mph, precipitation_inches, cloud_cover, wind_dir_degrees
  2. Comment la météo influence les trajets, en termes de distance et de destination ?
    • Nous allons chercher quels sont les trajets effectués en fonction des conditions météorologiques.
    • Graphique: Connexion Map pour chaque condition météorologique
    • Dataset: trip.csv, weather.csv, station.csv
    • Features: start_date, end_date, date, start_station_name, end_station_name, name, lat, long, mean_temperature_f, mean_humidity, mean_wind_speed_mph, precipitation_inches, cloud_cover, wind_dir_degrees
  3. Quels sont les trajets les plus fréquentés ?
    • Nous voulons observer quels sont les trajets les plus fréquentés, notamment leur type (trajet pour aller vers un lieu de travail, école, université, loisir). Nous n’aurons pas le trajet exact étant donné que le dataset nous donne seulement le point de départ et le point d’arrivée.
    • Graphique: Arc diagram
    • Dataset: trip.csv
    • Features: start_station, end_station
  4. Quelles sont les stations les plus fréquentées (départs et arrivées) ?
    • Nous cherchons à observer quelles stations ont le nombre d’utilisateurs le plus important.
    • Graphique: Dot Map
    • Dataset: trip.csv
    • Features: start_station, end_station
  5. Quelles sont les durées des trajets en fonction des heures de la journée, de la saison ? Et comment l’utilisation des vélos varie au cours de la journée ?
    • On cherche à représenter l’utilisation des vélos au cours de la journée, de l’année et voir si, au sein d’une même journée, il y a des plages horaires d’utilisation plus fortes ou faibles.
    • Graphique: Bar chart (3 graphiques)
    • Dataset: trip.csv
    • Features: start_date, end_date, duration
  6. Quel est le rapport entre départs et arrivées de chaque station ?
    • On observe s’il y a des stations qui ont plus de départs que d’arrivées, et inversement.
    • Graphique: Dot map
    • Dataset: trip.csv
    • Features: start_station_name, end_station_name
  7. Existe-il une relation entre le nombre de vélos disponible à une station et la météo ?
    • On voudrait voir si un temps moins propice à l’utilisation d’un vélo fait qu’il y a plus de vélos disponibles à une station.
    • Graphique: Heatmap ou Scatterplot
    • Dataset: status.csv, weather.csv
    • Features: bikes_available, time, date, mean_temperature_f, mean_humidity, mean_wind_speed_mph, precipitation_inches, cloud_cover, wind_dir_degrees

Analyse Exploratoire

Pré-analyse - Heatmap de corrélation des variables de nos dataset

####Analyse

station.csv On observe une forte corrélation négative entre la latitude et la longitude et également une corrélation négative entre la longitude et id. Il n’y a rien de vraiment notable sur cett heatmap, on peut s’attendre à ce qu’il y a une corrélation entre latitude et longitude. Par contre, on pourrait essayer de comprendre pourquoi une corrélation existe entre l’id de la station et la longitude.

trip.csv Il n’existe visiblement pas de corrélations notables entre les variables de ce dataset. On observe une petite corrélation positive entre le code zip et le type d’abonnement (zip_code / subscription_type) et la station de début et la station de fin (start_station_id et end_station_id). Une forte corrélation positive existe entre la date de début d’un trajet et sa date de fin (start_date/end_date).

status.csv On observe une corrélation négative entre le nombre de vélos disponible et le nombre de dock disponible (bikes_available/docks_available), ce résultat était attendu car plus il y a de vélos disponible à la station, moins les docks sont disponibles.

weather.csv De façon plutôt logique, on observe sur la heatmap des corrélations entre les means, max et min de chaque conditions météorologiques.

Etant donné que ces heatmaps ne nous donne pas plus d’informations que cela pour chaque dataset, il s’agit de croiser les datasets ensemble pour observer s’il existe des corrélations entre certaines variables, auxquels nous n’aurions pas pensé lors de la rédaction de notre plan d’analyse. Pour la lisibilité des heatmaps, les dataset vont être fusionnés deux à deux. Nous avons donc essayer de faire les choix de fusion les plus pertinents :

####Analyse

Entre weather et trip / entre weather et status On retrouve des corrélations entre les variables en lien avec la météo. Ce qui est notable est que ces corrélations sont moins fortes que pour la heatmap entre weather et station.

Entre weather et station Ici on observe qu’il y a des corrélations forte pour la latitude et longitdue avec certaines condition météorologique, on pourrait évventuellement faire une carte des conditions météorologiques pour comprendre comment cette corrélation prend forme. On pourrait observer cela sur chacune des années du dataset pour voir s’il y a une évolution du temps à SF et si cela à un impact sur l’utilisation des vélos aux stations.

Entre trip et station On trouve ici plusieurs corrélations intéressantes : - entre les stations de début et de fin et la latitute et longitude (start_station_id/latitude ET longitude, end_station/latitude ET longitude), nous pouvons peut-être voir, grâce à la question 3 de notre plan d’analyse, la relation entre la position de la station de départ et sa position et pareillement pour la station d’arrivée.

Entre status et station On ne trouve pas ici de liens particulier intéressante pour notre analyse, la corrélation entre dock_count et bikes_available / docks_available semble naturel.

Partie 0 - Analyse Macro du dataset

0.1 Comment évolue l’utilisation du service de vélos libre-service entre août 2013 et août 2015?

Avant d’étudier les tendances d’utilisation des vélos et l’influence des conditions météorologiques, il est intéressant d’étudier l’évolution de l’utilisation des vélos sur la période couverte par les données.

On suppose que l’utilisation des vélos a augmentée progressivement à partir de la mise en service du réseau en août 2013. On pourrait observer des variations en fonction des différents mois de l’année à cause des variations météorologiques. Une diminution générale de l’utilisation des vélos au milieu de l’année 2015 pourrait être la cause de la suspension du service à partir de cette période.

Visualisations

Pour étudier l’évolution de l’utilisation du réseau de vélos libre service nous allons utiliser successivement plusieurs line chart afin de visualiser dans un prémier temps l’évolution du nombre de trajets quotidiens, puis l’évolution de la durée moyenne des trajets par jour, sur la période couverte par les données disponibles.

Evolution du nombre de trajets entre août 2013 et août 2015

En visualisant l’évolution du nombre de trajets quotidiens on est confrontés à des variations importantes, qui semblent régulières, et qui nous empêchent d’émettre une hypothèse sur une tendance d’utilisation sur les deux ans. En visualisant l’évolution du nombre de trajets hebdomadaire, réduisant les variations régulières, on met en avant les tendance d’utilisation des vélos sur l’année.

Comme évoqué dans les hypothèses, on note une augmentation du nombre de trajets à partir de la mise en service du réseau en août 2013, ainsi qu’une diminution autour de août 2015. Cette diminution soudaine ne semble pas dûe à un désintérêt des utilisateurs (utilisation constante jusque là), mais plutôt à la désinstallation progressive des stations en vue de l’arrêt du service en août 2015. Au cours de la période d’utilisation du réseau, on remarque des tendances rélatives aux différetes périodes de l’année. Les minimums locaux enregistrés annuellement se positionnent au mois de décembre (début puis fin décembre). A partir du mois de janvier on remarque une augmentation générale du nombre de trajets hebdomadaires.

Evolution de la durée moyenne des trajets entre août 2013 et août 2015

En visualisant l’évlution de la durée moyenne quotidienne des trajets, on est encore une fois confrontés à des variations très importantes, qui semblent régulières et qui nous empêchent d’émettre une hypothèse sur une tendance d’utilisation sur les deux ans. En visualisant l’évolution de la durée moyenne hebdomadaire des trajets, réduisant les variations régulières, on espère mettre en avant les tendance d’utilisation des vélos sur l’année.

En étudiant l’évolution sur deux ans de la durée moyenne hebdomadaire des trajets enregistrés, on ne remarque pas de tendance évidente au premier abord. On note deux pics en août 2013 lors de la mise en service du réseau et en août 2015 lors de sa suspension. On pourrait expliquer ces particularités par des tests effectués (août 2013) ou des trajets enregistrés lors de la suspension du service par les équipes techniques dont la durée étonnante fausse les données des trajets enregistrés (août2015). Au cours de l’année, on remarque des maximums locaux à la fin des mois de décembre

Interprétation des graphiques

On ne remarque pas d’évolution pmarticulière dans l’utilisation du réseau de vélos libre-service de San Francisco. On remarque des irrégularités liées à l’installation (août 2013) et à la désinstallation (août 2015) du réseau. On note des tendances d’utilisation selon les différentes périodes de l’année :

  • le nombre de trajets enregistrés augmente progressivement de janvier à novembre,
  • les minimums de nombre de trajets sont enregistrés au mois de décembre,
  • la durée moyenne des trajets est constante et augmente légèrement au mois de décembre.

On émet l’hypothèse selon laquelle le nombre et la durée moyenne des trajets dépendent en partie des conditions météorologiques enregistrées : des conditions favorables encouragent l’utilisation des vélos, pour des trajets plus longs. Parallèlement, des conditions ddéfavorables peuvent soit décourager l’utilisation des vélos pour des trajets longs (favoriser des trajets courts) ou rallonger des trajets rapides. Nous aurons l’occasion de vérifier cette hypothèse au cours de notre étude.

Remarques

En souhaitant visualiser l’évolution journalière de l’utilisation du service (nombre/ durée moyenne) nous avons été confrontés à des courbes présentant des variations importantes, qui semblent régulières et qui nous empêchent de conclure sur des tendances d’utilisation.Nous emettons l’hypothèse selon laquelle il existe des variations d’utilisation des vélos importantes selon les jours de la semaine, en terme de quantité de trajets et de durée.

0.2 Comment varie l’utilisation du réseau de vélos libre-service en fonction des jours de la semaine?

Nous avons pu observer des variations importantes et en apparence régulières relatives à l’utilisation des vélos lors de notre étude de l’évolution du nombre de trajets et de la durée moyenne quotidienne. Nous imaginons que ces disparités sont dûes à un usage différents selon les différents jours de la semaine.

Selon les tendances d’utilisation des vélos, on peut émettre différentes hypothèses. Si les utilisateurs favorisent les vélos pour des trajets quotidiens (domicile - lieu de travail par exemple), on peut s’attendre à observer davantage de trajets en semaine, pour des trajets plus courts. Si au contraire ils sont utilisés pour le loisir (balade/ déplacements pour le loisir), on peut s’attendre à noter davantage de trajets effectués en fin de semaine, pour des durées plus longues.

Visualisations

Pour étudier les tendances d’utilisation des vélos en fonction des jours de la semaine, nous utilisons un barchart pour réprésenter succéssivement le nombre de trajets et la durée moyenne des trajets. Si on observe une corrélation entre les données, il serait intéressant de les réunir sur un même graphique.

Nombre de trajets et durée moyenne des trajets en fonction des jours de la semaine

On observe facilement une corrélation entre le nombre moyen et la durée moyenne des trajets enregistrés chaque jour. En effet, plus de trajets sont effectués en semaine pour une durée d’une dizaine de minutes, ces derniers peuvent correspondre aux déplacements quotidiens des habitants de San Francisco, pour se rendre au travail/ en courses. Les trajets enregistrés les samedis et dimanches sont nettement moins nombreux et leur durée moyenne est supérieure à celle des trajets en semaine; on suppose qu’ils correspondent à des trajets de loisir, pour des déplacements occasionnels, des promenades. On notera que la variation entre la durée moyenne des trajets en semaine et le week-end n’est que de quelques minutes (5-7 minutes); une interprétation reste intéressante compte tenu de la constance des résultats obtenus de lundi à vendredi. A l’issue de cette visualisation nous avons souhaité étudier la répartition des données à travers des boxplot afin d’approfondir notre étude.

Répartition du nombre de trajets et de la durée moyenne des trajets en fonction des jours de la semaine

On remarque que les valeurs du nombre de trajets enregistrés chaque jour sont peu étendues, quelques outlier existent. La moitié des valeurs enregistrées se situe dans un intervalle réduit, l’étendue du nombre de trajets enregistrés le week-end est faible, les valeurs sont nettement moins importantes que les nombres de trajets enregistrés en semaine.

Les répartitions des durées moyennes enregistrées en semaine sont identiques entre elles. La répartition des durées moyennes enregistrées samedi et dimanche sont casiment identiques. Le graphique comporte un nombre important d’outliers, pour mieux visualiser la répartition des données interessantes nous avons limité l’axe des ordonnées à 30 minutes excluant environ 3% des valeurs.

Interprétation des graphiques

Nous avons étudié les tendances d’utilisation des vélos en comparant le nombre de trajets moyen et la durée moyenne enregistrés par jour, puis la répartition de ces deux variables. Nous observons nettement que les vélos sont davantage utilisés en semaine, pour des trajets plus courts, on suppose qu’il s’agit de trajets quotidiens. Moins de trajets sont effectués les samedis et dimanches, mais les durées moyennes sont plus élevées, pouvant correspondre à des trajes occasionnel, de loisir.

Etudier la répartition de ces deux variables (nombre de trajets/jour et durée moyenne/jour) nous permet de confirmer ces différence d’utilisation. De manière générale on note une répartition presque identique des données pour les jours de lundi à vendredi, ainsi qu’entre samedi et dimanche. On note aussi des données peu étendues et une quantité limitée d’outlier compte tenu de la quantité de données traitées. La répartition des moyennes de durées des trajets quotidienne présente davantage d’outliers.

Remarques

En étudians l’évolution de l’utilisation du service sur deux ans nous avons soulevé des tendances d’utilisation en fonction des différents jours de la semaine. De plus, nous avons noté une variation du nombre de trajets enregistrés au cours de l’année. Il serait intéressant de poursuivre une étude similaire à celle-ci en fonction des différents mois de l’année, en fonction des saisons. Pour approfondir cette étude, nous nous pencherons également sur les tendances d’utilisation des vélos libre-service de San Francisco en fonctions des conditions météorologiques enregistrées (température, vent, précipitation…).

Tableau

Nous avons utilisé l’outil Tableau pour représenter les graphiques de cette question. L’outil nous a permis d’extraire les données facilement, d’obtenir des visualisations rapidement et de manipuler les diagrammes afin d’en tirer des informations complémentaires à notre étude. En effet, voicile tableau de bord obtenu regroupant l’évolution du nombre de trajets quotidien sur la période étudiée, l’évolution du nombre de trajets hebdomadaires, le nombre de trajets moyen par jour de la semaine (bar chart) et la répartition du nombre de trajets par jour de la semaine. Nous avons ajouté des filtres visibles sur la droite du tableau de bord permettant de selectionner les jour de la semaine concernés et/ou de définir une plage de date. Ces filtres n’agissent que sur les line chart.

Sur cette deuxième capture d’écran nous nous sommes servis du filtre pour ne visualiser que l’évolution du nombre de trajets effectués du lundi au vendredi. On remarque l’apparition d’une tendance sur la courbe modélisant l’évolution du nombre de trajets quotidiens malgré la persistance d’outliers.

Sur cette troisième capture d’écran on a, à l’inverse, uniquement conservé les données relatives au nombre de trajets enregistrés les samedi et les dimanches. De même que précédemment, on observe une diminition des variations sur le premier graphique. En comparant avec la capture d’écran illustrant les données enregistrées en semaine, on voit nettement la différence d’évolution du nombre de trajets enregistrés du lundi au vendredi par rapport au week end.s

Partie 1 - Quels sont les facteurs qui ont un impact sur l’utilisation des vélos ?

1. Quelle est la répartition des statuts des utilisateurs en fonction du trajet effectué (Subscriber/Customer) ?

Analyse
Observations

Ce graphique analyse l’évolution du rapport entre abonnés (subscribers) et clients (customers). Les abonnés payent un abonnement mensuel pour avoir accès au vélos en illimités, alors que les customers payent leurs trajets à l’unité. Sur les trajets courts, la proportion d’abonnés est très forte (environ 90%), mais elle dégringole au fur et à mesure que les trajets rallongent. On a un équilibre entre abonnés et clients sur les trajets entre 20 et 24 minutes. Sur les trajets longs, la tendance est inversée avec un net avantage aux clients (environ 90 % de clients sur les trajets supérieurs à 40 minutes). C’est donc l’inverse de ce que nous avions prédit (plus de subscriber pour les longs trajets). On peut l’expliquer par le fait que les abonnées n’hésitent pas à prendre le vélo même sur des courts trajets, vu qu’il ne payent pas au trajet, alors que les clients vont préférer marcher ou un autre moyen de transport pour ne pas payer. De plus, les abonnées utilisent souvent le vélo sinon ils ne s’abonneraient pas car cela ne serait pas rentable, et les trajets les plus courants dans la vie quotidienne sont plutôt courts. A contrario, sur les longs trajets qui sont sûrement plutôt des ballades que des déplacements, les clients, donc usagers ponctuels, sont plus nombreux. Ils utilisent rarement les vélos, mais pour des occasions spécifiques.

2. Est-ce que les stations sont bien dimensionnées ? (suffisamment de docks)

Analyse
Observations

Dans le jeu de donnée status.csv, nous avons les données des stations pour 3 années. Pour chaque station, il y a des enregistrements effectués toutes les minutes pour connaître l’état de la station (nombre de vélos stationnés et le nombre de docks disponibles).

On observe que les stations sont, au global, mal dimensionnées. Seules les stations 5 et 83 ont toujours été en moyenne bien dimensionnées. On peut se demander si, au cours des années les dimensions ont toujours été les mêmes et si le taux d’occupation aurait évoluer au cours du temps. La question qui découle de cette observation est :

2 Bis. Pour chaque année, est-ce que le dimensionnement des stations changent et sont-elles mieux dimensionnées d’une année à l’autre ? :

Analyse
Observations

Sur ces trois graphiques, on observe majoritairement des stations qui sont sous-dimensionnées. On peut voir une évolution entre chaque année :

  • En 2014, il n’y a plus de stations sur-dimensionnées par rapport à
  • En 2015, on observe plus de stations adéquatement dimensionnée qu’en 2013 et 2014.

On peut supposer que Bay Area Bike Share a essayé d’ajuster ses services au fil des années. On peut conclure que les stations ne sont majoritairement pas dimensionnées correctement.

NB : le taux d’occupation moyen a été limité à 150% afin de pouvoir mieux comparer visuellement les données présentées pour chaque année. En 2013, le taux d’occupation varie entre 0% et 200% En 2014, le taux d’occupation varie entre 0% et 150% En 2015, le taux d’occupation varie entre 0% et 200% On peut noter qu’au global, entre 2013 et 2015, le taux d’occupation varie entre 0% et 150%.

Améliorations

La méthode de calcul pour le taux d’occupation moyen est à améliorer. Le calcul est effectué sur toutes les entrées d’une année, mais vu le volume de données, peut-être que l’on pourrait échantillonner pour avoir une meilleure idée du dimensionnement. A voir si une autre méthode de calcul serait plus adaptée aussi.

3. Est-ce que le dénivelé a un impact sur les trajets effectués par les utilisateurs ? (fait sur Shiny Dashboard)

Durée moyenne des trajets par départ (bleu) et arrivée (rouge)
Observations

On remarque que pour certaines stations, le temps moyen des trajets avec cette station comme point d’arrivée est supérieur au trajets avec cette même station comme point de départ et inversement. (Cercles rouge plus gros le cercle bleu)

Voici quelques pistes qui pourraient permettre d’expliquer ces différences :

  • Topographie :

Si une station est située en bas d’une colline, les trajets en direction de cette station (descente) seront plus rapides, tandis que les trajets partant de cette station (montée) seront plus lents. Cela pourrait expliquer pourquoi les temps moyens de trajets vers certaines stations sont plus courts ou plus longs que ceux partant de ces mêmes stations.

  • Utilisation Différente des Vélos :

Les utilisateurs peuvent avoir des comportements différents en fonction du type de trajet. Par exemple, les trajets vers une station proche d’une zone de loisirs peuvent être plus longs car les utilisateurs prennent leur temps, tandis que les trajets partant de cette station peuvent être plus rapides car les utilisateurs se dirigent vers des destinations spécifiques.

  • Infrastructures Cyclables:

Certaines stations peuvent être situées dans des zones où les infrastructures présentes (ex: pistes cyclables) peuvent influer sur la durée moyenne des trajets entrants et sortants.

Mise en relation avec la topologie (Ville de San Francisco)
Dans cette partie, les visualisations créées ont été faites manuellement, en superpositionnant une image avec notre visualisation des durées moyennes de trajets. (Manque de cartes interactives avec les données souhaitées)
Durée moyenne des trajets entrants sortant avec en lien avec la topographie de San Francisco
Durée moyenne des trajets entrants sortant avec en lien avec la topographie de San Francisco
Analyse

On remarque que la différence de durée moyenne des trajets entre l’arrivée et le départ ne semble pas être directement lié à la topologie de la ville de San Francisco. En effet, les stations dans les zones vert-claires, donc avec plus de dénivelé, ne ne semblent pas subir une augmentation significative de la durée des trajets entrants par rapport aux trajets sortants.

Mise en relation avec les points d’interets (Ville de San Francisco)
Durée moyenne des trajets entrants sortant avec en lien avec les points d’interêts de San Francisco
Durée moyenne des trajets entrants sortant avec en lien avec les points d’interêts de San Francisco
Analyse

On remarque que la différence de durée moyenne des trajets entre l’arrivée et le départ ne semble pas être directement lié à la présence ou non de point d’intêrets à San Francisco.

Mise en relation avec les infrastructures cyclistes de la ville de San Francisco
Carte des principaux axes cyclables à San Francisco

Superposition avec les durées moyenne des trajets.
Durée moyenne des trajets entrants sortant avec en lien avec les principaux axes cyclables de San Francisco
Durée moyenne des trajets entrants sortant avec en lien avec les principaux axes cyclables de San Francisco
Analyse

On remarque que la différence de durée moyenne des trajets entre l’arrivée et le départ ne semble pas être directement lié à la présence ou non d’infrastructure cyclable. On revanche il est interessant d’observer que la durée moyenne des trajets diminue (cercles rouges et bleus plus petits) en fonction de leur présence. Cela invite à supposer que les infrastructures cyclables facilitent et fluidifient les trajets à vélo.

4. Quelle condition météorologique a le plus d’impact sur l’utilisation des vélos ?

Quelques visualisations utilisées pour mieux appréhender nos données

Analyse
Observations

Ces premières visualisations sur la durée d’utilisation des vélos permettent de nous rendre compte que la majorité des trajets durent moins de 10 minutes, et plus précisément entre 5 minutes et 10 minutes.

Corrélation avec la météo

4.1 Température moyenne

Analyse
Observations

Tendance générale : On observe une augmentation de la durée des trajets avec la montée de la température, jusqu’à 20°C, suggérant que des conditions climatiques agréables encouragent des trajets plus longs.

Impact de la chaleur élevée : La durée des trajets diminue légèrement dans la tranche 25 à 30°C, peut-être à cause du confort réduit dû à la chaleur.

Améliorations

Données manquantes : La catégorie NA indique des données de température manquantes ou non définies, il serait bien de gérer correctement son affichage.

4.2 Saisons

Analyse
Observations

On remarque que la durée moyenne des trajets est plus ou moins équivalente au travers des différentes saisons, avec un écart de 100 secondes (1m40s) maximum entre deux saisons. On remarque tout de même qu’en hiver la durée moyenne est nettement en deça des autres saisons, probablement à cause des températures plus basses à cette saison. Il serait interessant de mettre en parallèle ces durées de trajets avec le nombre de trajet effectués pour chaque saison.

Améliorations

Changer les secondes en minutes pour une meilleure compréhension.

Analyse
Observations

Été : C’est la saison la plus active, avec le nombre de trajets le plus élevé, ce qui est souvent le cas dans de nombreuses régions en raison de conditions météorologiques plus clémentes et d’une augmentation des activités de plein air durant cette période.

Printemps : Juste derrière l’été, le printemps montre également un nombre élevé de trajets. Ce pic pourrait être attribué à l’amélioration du temps et à la volonté des gens de sortir après l’hiver.

Automne : Bien que légèrement moins élevé que l’été et le printemps, l’automne affiche encore un nombre significatif de trajets, possiblement aidé par des températures agréables.

Hiver : Comme nous pouvions le prévoir, l’hiver a le nombre le plus bas de trajets. Le froid, la pluie, ou la neige dans certaines régions peuvent décourager l’utilisation de vélos pendant cette saison.

4.3 Précipitations

Analyse
Observations

Faibles Précipitations (0-0.2 inches) : On observe la durée la plus courte pour les trajets, ce qui est attendu car les conditions sont relativement sèches, facilitant des trajets plus courts et plus rapides.

Augmentation des Précipitations (0.2-1.0 inches) : La durée des trajets diminue progressivement avec l’augmentation des précipitations. Cela suggère que des pluies légères à modérées pourraient décourager l’usage du vélo pour de longs trajets.

Pic de Précipitations (1.0-1.2 inches) : Il y a une augmentation marquée de la durée moyenne des trajets pour cette tranche de précipitations. Ce pic pourrait être lié à des conditions spécifiques qui ralentissent les déplacements, comme des pluies plus lourdes nécessitant une prudence accrue, ou peut-être un événement particulier qui a eu lieu dans des conditions de forte pluie.

Très Fortes Précipitations (1.2 inches et plus) : Après le pic, la durée des trajets commence à diminuer à nouveau, mais reste plus élevée comparée aux conditions de faibles précipitations. Cela pourrait indiquer que, bien que moins de personnes choisissent de voyager en vélo lorsqu’il pleut fort, ceux qui le font peuvent prendre des trajets essentiels qui prennent plus de temps à compléter.

Il serait donc interessant, une fois de plus de mettre ces données en relations avec le nombre de trajets effectués en fonction des précipitations.

Améliorations

Il serait bien de changer l’unité des précipations en mm afin de mieux appréhender les différentes valeurs.

Analyse
Observations

Faibles Précipitations (0-0.2 inches) : Il y a un nombre très élevé de trajets réalisés sous de faibles précipitations. Cela montre que des conditions météorologiques légèrement humides n’entravent pas significativement l’utilisation du vélo.

Augmentation des Précipitations : À mesure que les précipitations augmentent, le nombre de trajets diminue drastiquement. Cela suggère que des conditions de pluie modérée à forte dissuadent les utilisateurs de choisir le vélo comme mode de transport.

Très Fortes Précipitations (>1.0 inches) : À des niveaux de précipitations plus élevés, le nombre de trajets chute presque à zéro, indiquant une forte rejet pour le cyclisme sous de telles conditions.

Couplée à la visualisation précédente, celle-ci nous montre que même si la durée moyenne des trajets varie sous la pluie, elle ne varie clairement pas autant que le nombre de trajets effectués dans ces conditions.

Améliorations

Changer les unités de l’axe y permettrait peut-être d’améiorer la compréhension. Il serait bien de changer l’unité des précipations en mm afin de mieux appréhender les différentes valeurs et de retirer la notation scientifique.

Partie 2 - Quelles sont les tendances d’utilisation des vélos ?

5. Quelle est la durée moyenne des trajets en fonction de la météo ?

Durée moyenne des trajets en fonctions de la température

Analyse
Observations

On observe une variation de la durée moyenne des trajets selon la température moyenne quotidienne. On peut supposer que les températures plus élevées favorisent l’usage des vélos pour des trajets longs, tandis qu’ils sont utilisés davantage pour des trajets courts lorsque la température est froide. Une particularité entre 5 et 10°C peut s’expliquer par le froid qui ralentirait la progression des usagers.

Durée moyenne des trajets en fonctions de l’humidité

Analyse
Observations

Nous observons une faible variation de la durée moyenne des trajets selon l’humidité en général. Il est cependant à noter que la durée moyenne des trajets augmente considérablement lorsque l’humidité est maximale, autrement dit quand il pleut, cela peut s’expliquer par des usagers plus prudents, moins rapides, lorsqu’il y a de la pluie.

Durée moyenne des trajets en fonctions de la visibilité

Analyse
Observations

De manière générale, on suppose qu’une bonne visibilité, synonyme de beau temps, encourage des trajets longs car plus agréables. Une mauvaise visibilité quand à elle pourrait ralentir les usagers.

Durée moyenne des trajets en fonctions de la vitesse du vent

Analyse
Observations

On observe que la présence de vent n’a pas d’impact direct sur la durée moyenne des trajets, on note cependant une relation entre un vent important et des trajets plus courts en général. Cela nésseciterai des informations complémentaires pour établir clairement un lien.

Durée moyenne des trajets en fonctions du volume des précipitations

Analyse
Observations

On note que les temps sec favorisent les trajets longs, plus agréables. On remarque également que la durée moyenne des trajets lors de fortes précipitations augmente, on peut expliquer cela par des utilisateurs plus prudents, moins rapides.

Durée moyenne des trajets en fonctions de la couverture nuageuse

Analyse
Observations

D’ordre général, on remarque que la durée moyenne des trajet est plus importante lorsque la couverture nuageuse est la plus faible. On peut expliquer cela par un usage plus important des vélos, pour des trajets plus longs. Il s’agit de corréler ces données avec le nombre de trajets effectués en fonction des conditions météorologiques.

6. Comment la météo influence les trajets, en termes de distance et de destination ?

Cette interrogation avait pour objectif de relier les données météorologiques avec les données relatives aux trajets enregistrés. Après avoir étudié le nombre et la durée des trajets en fonction de conditions météorologiques, nous souhaitions faire apparaître des tendances d’utilisations relatives aux stations empruntées (départ/ arrivée) et aux distances parcourues. Nous espérions par exemple identifier des tendances de déplacement vers le littoral ou les lieux touristiques lorsque le temps est favorable, ou des déplacements vers des lieux en intérieur (centre commerciaux, cinémas) lorsque le temps est défavorable. Plusieurs raisons nous ont poussés à écarter cette question :

  • Nous avons conclus que les stations étaient proches les unes des autres et concentrées au sud-ouest de San Francisco et ne couvrent pas toute la ville. Etudier leur utlisation en fonction des conditions météorologiques n’est pas pertinent dans la mesure où une station ne correspond pas à un point d’intérêt remarquable.
  • Les données météorologiques utilisées ne dépendent que de la date à laquelle elles ont été enregistrées (min, moy et max/ jour), or ces dernières varient et peuvent influencer différement les trajets au cours d’une même journée en terme de distance et de destination.
  • Les questions 4 et 5 relatives à l’influence des conditions météorologiques sur l’utilisation du réseau de vélos libre-service à San Francisco ont en parti recouvert et apporté des réponses à cette intérrogation. En effet, la poursuite de l’analyse à l’issu de l’interprétation de resultats entraîne un entrecroisement des réponses apportées aux différentes questions posées.

7. Quels sont les trajets les plus fréquentés ?

Analyse
Observations

D’ordre général, on remarque que la durée moyenne des trajet est plus importante lorsque la couverture nuageuse est la plus faible. On peut expliquer cela par un usage plus important des vélos, pour des trajets plus longs. Il s’agit de corréler ces données avec le nombre de trajets effectués en fonction des conditions météorologiques. Cet Arc Diagram nous permet de voir pour chaque station quelle est la station d’arrivée la plus représentée parmi les trajets partant de celle-ci (arcs au dessus), et quelle est la station dont elle est la plus grosse source d’arrivée (arcs au dessous). Par exemple, la station d’arrivée la plus courante parmi les trajets partant de la station 6 est la station 46, et la station de provenance la plus représentée dans les trajets arrivant à la station 4 est la station 70.

8. Quelles sont les stations les plus fréquentées (départs et arrivées) ?

Analyse
Observations

On voit sur la carte que les stations les plus utilisées sont situées dans la ville de San Francisco, notamment sur Market Street, Townsend Street, l’embarcadère. On observe que les stations sont vraiment réparties sur les grands axes routiers de la ville mais ne couvrent pas du tout toute l’agglomération. On ne peut par exemple pas aller dans le district de Richmond, de Bayview, ou de Sunset en vélo. Des stations sont aussi situées à San Jose, Mountain View, Palo Alto et Redwood City, mais elles possèdent une affluence plus faible. Les vélos en libre service sont donc plutôt voués à être utilisés pour couvrir des courtes distances, dans les centres villes de ces agglomérations.

9. Quelles sont les durées des trajets en fonction des heures de la journée, de la saison ? Et comment l’utilisation des vélos varie au cours de la journée ?

## # A tibble: 24 × 2
##     hour count
##    <int> <int>
##  1     0  2132
##  2     1  1142
##  3     2   649
##  4     3   309
##  5     4  1004
##  6     5  3417
##  7     6 14271
##  8     7 43846
##  9     8 85615
## 10     9 62467
## # ℹ 14 more rows
## # A tibble: 24 × 2
##     hour count
##    <int> <int>
##  1     0  2132
##  2     1  1142
##  3     2   649
##  4     3   309
##  5     4  1004
##  6     5  3417
##  7     6 14271
##  8     7 43846
##  9     8 85615
## 10     9 62467
## # ℹ 14 more rows

Observations

Les durées moyennes des trajets à vélo sont particulièrement longues en début de matinée (2h-4h) et autour de midi (12h-14h), plus courtes aux heures de pointe (7h-9h et 16h-18h), et modérément stables en milieu de journée (10h-15h) et en soirée (18h-21h).

Analyse

Ce graphique montre que les durées moyennes des trajets à vélo varient significativement selon l’heure de la journée. Les trajets les plus courts se produisent aux heures de pointe, ce qui est logique car les utilisateurs cherchent à se déplacer rapidement pour le travail ou l’école. Les durées plus longues observées tôt le matin et autour de midi pourraient indiquer des usages plus récréatifs ou des trajets moins pressés.

Observations

On remarque que l’utilisation des vélos atteint des pics notables aux heures de pointe du matin (7h-9h) et du soir (16h-18h), avec un plateau plus stable mais plus faible en milieu de journée (10h-15h).

Analyse

Les deux périodes de pointe distinctes correspondant aux heures de pointe typiques du matin et du soir, suggèrent que les vélos sont principalement utilisés pour les trajets domicile-travail ou domicile-école. Cela met en évidence l’importance des vélos comme moyen de transport pour les déplacements quotidiens dans la baie de San Francisco.

Le plateau en milieu de journée indique une utilisation modérée des vélos, possiblement pour des courses, des déjeuners ou des déplacements personnels. Les faibles niveaux d’utilisation tôt le matin et tard le soir sont cohérents avec les périodes de repos et moins d’activités.

10. Quel est le rapport entre départs et arrivées de chaque station ?

Analyse
Observations

Cette carte nous permet de voir qu’il existe des différences importantes entre le nombre de départs et d’arrivées pour certaines stations. On a par exemple à San Francisco deux stations ayant environ 25 % plus de départs que d’arrivées. On a également à San Jose une station très excédentaire en départs (18%). En utilisant également la carte précédente, on se rend compte que les grosses stations ont un rapport départ/arrivées assez équulibrées, et c’est en réalités des stations moins fréquentées qui possèdent un fort déséquilibre.

11. Existe-il une relation entre le nombre de vélos disponible à une station et la météo ?

## # A tibble: 1 × 6
##   correlation_temp correlation_humidity correlation_wind_speed
##              <dbl>                <dbl>                  <dbl>
## 1          -0.0123             -0.00728               -0.00379
## # ℹ 3 more variables: correlation_precipitation <dbl>,
## #   correlation_cloud_cover <dbl>, correlation_wind_dir <dbl>
Analyse
Observations

On observe ici qu’il n’y a aucune corrélations existantes entre les conditions météorologiques et le nombre de vélos à une station.

Ici, l’analyse a été faite sur les trois ans. Les solutions pourrait être de filtrer les données pour une seule station, sur une année seulement voir même les deux en même temps. Finalement, nous nous sommes rendu compte que cette question n’est pas tant pertinente que cela au vu de la nature de nos données, il est compliqué de faire des statistiques dessus. On peut ajouter que les questions précédentes peuvent permettre un début de réponse à celle-ci car nous avons observer que en été les trajets sont plus nombreux et en hiver ils diminuent légèrement. Ce qui pourrait signifier que les conditions météorologiques comme une température élevé, une humidité modéré et une pluviométrie faible sont des conditions optimales pour des trajets à vélo.

Conclusion

Ce projet nous a permis de découvrir un jeu de données très vaste et complet. Ce jeu porté sur les données fournies par le site de Bay Area Bike Share, entreprise de location de vélos libre-service à San Francisco, de 2013 à 2015. Nous avions décidé, dans notre plan d’analyse, de diviser nos questions en deux parties. Ainsi, nous allons faire une conclusion pour chacune de ces parties :

Quels sont les facteurs qui ont un impact sur l’utilisation des vélos ?

Grâce à l’exploration de notre jeu de données, nous avons pu voir que les types d’abonnement (customer/subscriber) et la météo sont des facteurs impactant au regard de l’utilisation des vélos. A contrario, l’étude du dénivelé de SF et du dimensionnement des stations ne sont pas vraiment ne sont pas des facteurs qui influencent l’utilisation des vélos.

Quelles sont les tendances d’utilisation des vélos ?

Pour cette partie, nous avons pu observer les temps moyens des trajets pour des conditions spécifiques définies : la météo, les saisons et les heures de la journée. Nous avons également pu étudier le comportement des utilisateurs au niveau des stations pour comprendre la fréquentation. Nous avons également pu voir les trajets les plus fréquentés de la Baie de San Francisco. En bref, répondre à nos questions que nous nous sommes posées ici ne nous a pas toujours menés vers les réponses auxquelles on s’attendait, et ce fut intéressant de voir le contraire. Nous avons vu qu’il y avait des outliers dans certains dataset et qu’il fallait fouiller pour comprendre certaines des informations que l’on affichait.

De façon globale, pas de difficultés notables ont été soulevées dans le groupe. Ce qui était particulièrement contraignant fut le temps de traitement du code de certaines questions, en lien avec la taille de nos jeux de données (status.csv faisant plus de 71 000 000 enregistrements). Nous avons pu naviguer aisément dans notre exploration du jeu de données et nous aurions pu pousser celle-ci plus loin sur certains points en regardant plus en profondeur les données météo fournies.

Retour de chaque membre du groupe

Grégoire Gaumain

Ce projet a été très enrichissant. Nous avons pu créer des graphiques de tout type, et réfléchir à quel graphique utiliser en fonction de chaque cas était très intéressant. Notre jeu de données était très complet ce qui nous a permis d’analyser beaucoup de choses différentes, et de mieux comprendre le système de location de vélo de la baie de San Francisco, et les facteurs qui influencent son utilisation.

Fantin Schmitt

J’ai trouvé ça passionnant d’utiliser les dataviz comme outil pour essayer d’observer et de comprendre des tendances sur nos données. Même si notre dataset était très grand, j’ai été surpris de voir la quantité d’informations que l’on a pu extraire en ne se focalisant que sur quelques données seulement. Une chose essentielle que je retiens c’est l’importance de contextualiser nos observations avec des sources externes pour valider ou remettre en question nos interprétations.

Clémence Vu

J’ai apprécié le travail de construction et d’extraction d’informations effectué sur les jeux de données, l’idée de faire parler les données pour en tirer des faits concrets, explicables et interprétables. Chaque visualisation nous donne à la fois des réponses aux interrogations posées et déclenchent de nouvelles questions et de nouvelles possibilités. Dans le cadre de notre étude, il aurait été intéressant de considérer l’utilisation du service sur une plus longue durée, ou encore de comparer les trajets aux conditions météorologiques enregistrées au moment de la journée (heure plutôt que moyenne journalière). Enfin il aurait été intéressant d’étudier les trajets effectués par un même abonné (suscriber) si nous avions eu un champ identifiant l’utilisateur, disponible dans notre jeu de données.

Lucie Abi Chaaya

Ce projet a été une super approche pour la dataviz ! Le fait de devoir réfléchir et analyser de A à Z sur un dataset que nous avons choisi a été vraiment intéressant, et voici le point que je retiens en particulier : la remise en question sur les graphiques que l’on crée et la prise recul à prendre vis-à-vis du travail produit. J’aurais aimé approfondir les pistes trouver sur les heatmap de pré-analyse, car je pense qu’il y a encore des choses à fouiller dans ce dataset. De façon global ce projet m’a permis de mieux comprendre les enjeux d’une visualisation de données !

Annexe

Répartition du travail de l’équipe durant le semestre

Membre Questions traitées Autres travaux effectués
Grégoire Gaumain Q1 - 1 diagramme
Q7 - 1 diagramme
Q8 - 1 map
Q10 - 1 map
+ Shiny App (Météo)

Une partie de la rédaction du readme
Shiny App
Fantin Schmitt Q3 - 4 maps
Q4 - 7 Diagrammes
Q9 - 2 Diagrammes
+ Shiny App (Cartes)

Une partie de la rédaction du readme
Au jalon 1, la mise en commun des travaux effectués par chaque membre de l’équipe au sein d’un seul fichier RMD a été effectué
Shiny App
Lucie Abi Chaaya Heatmaps pré-analyse
Q2 - 4 diagrammes
Q11 - 2 types de diagrammes
La rédaction du readme a été effectuée en grande partie.
Mise en commun du rapport final et rédaction de la conclusion
Clémence Vu Q0 - 5 diagrammes
Q5 - 5 diagrammes
Recherche de problématiques
Tableau

Pour le traitement des questions, chaque membre de l’équipe a interprété et analysé ses propres graphiques.

Note that the echo = FALSE parameter was added to the code chunk to prevent printing of the R code that generated the plot.